Importancia del lenguaje coloquial y de los símbolos de puntuación en el perfilado de autores

نویسندگان

  • Diana Sepúlveda Barrera
  • Daniel Martínez-Espino
  • Esaú Villatoro-Tello
  • Gabriela Ramírez-de-la-Rosa
چکیده

In recent years, author profiling (AP) has become a very relevant task for natural language processing (NLP). The main goal of 43 Research in Computing Science 115 (2016) pp. 43–56; rec. 2016-04-22; acc. 2016-05-15 AP is automatically determine demographic aspects from an author, for example, genre and age. In this paper we present a method for author profiling; particularly, we are interested in determine the rol of colloquial language and the meaning of diverse punctuation marks. Contrary to previous works, our proposal considers each punctuation mark independently and not as a single attribute that covers all marks. Our hypothesis states that the use of certain punctuation marks together with the use of colloquial language can provide relevant information to a automatic classification method. As an aditional contribution, we compiled and made available a dictionary with the colloquial words we use in this paper. The obteined results show that the proposed features allow enhance traditional text representation schemas.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Producción del LEL en un Dominio Técnico. Informe de un caso

El presente trabajo se centró en las actividades de la fase de elicitación de requerimientos, utilizándose para la misma una metodología basada en el uso del Léxico Extendido del Lenguaje (LEL) y Escenarios. Se utilizó como caso de estudio el Sistema de Registración y Producción del Instituto de Hemoterapia de la provincia de Buenos Aires. Las experiencias existentes de construcción se desarrol...

متن کامل

Inducción de constituyentes sintácticos en español con técnicas de clustering y filtrado por información mutua

El Argumento de la Pobreza de los Estímulos (Argument from the Poverty of Stimulus, APS) se presenta como el gran campo de debate epistemológico entre el paradigma simbólico y el paradigma estadístico en lingüística computacional (Pullum y Scholz 2002). Desde 2000 en adelante aparecieron algunos trabajos dentro del paradigma estadístico que se propusieron atacar el Argumento de la Pobreza de lo...

متن کامل

La importancia de estudiar la prosodia en la comprensión del discurso hablado espontáneo

La investigación acerca del rol de los límites prosódicos y los acentos en la comprensión del lenguaje se ha centrado tradicionalmente en el estudio de la comprensión de oraciones, a través de la utilización del discurso producido por hablantes expertos o no expertos en el laboratorio. Comparativamente, se ha prestado menor atención al estudio de la comprensión del discurso oral espontáneo y de...

متن کامل

[Public health: who can do it and what can be done?].

El trabajo de Davó et al en este número de Gaceta Sanitaria estimula varias ideas. La visión en él aportada es amplia, pero no se encuentran todas las titulaciones en que se definen competencias de salud pública. Por ejemplo, no está incluida fisioterapia; en Andalucı́a, los fisioterapeutas se incluyen dentro del equipo de Atención Primaria en los distritos sanitarios, y la Consejerı́a de Educaci...

متن کامل

[Invasive mycoses in the critically ill patient].

El objetivo de este número monográfico es plantear, desde un punto de vista multidisciplinario del paciente crítico, la dificultad del diagnóstico y el manejo terapéutico de la infección fúngica invasiva (IFI) en sus escenarios más frecuentes con pacientes posquirúrgicos, receptores de órgano sólido y quemados graves. “La detallada descripción de los siete casos clínicos presentados refleja la ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Research in Computing Science

دوره 115  شماره 

صفحات  -

تاریخ انتشار 2016